home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1994 March / Internet Info CD-ROM (Walnut Creek) (March 1994).iso / inet / internet-drafts / draft-chon-korean-encoding-01.txt < prev    next >
Text File  |  1993-07-20  |  9KB  |  286 lines

  1. Uhhyung Choi
  2. Korea Network Information Center
  3.  
  4.  
  5. Network Working Group                                        Kilnam Chon
  6. Internet Draft                                              Hyun Je Park
  7.                                                             Uhhyung Choi
  8.                                                            July 22, 1993
  9.  
  10.  
  11.         Korean Character Encoding for Internet Messages
  12.  
  13.  
  14. Status of this Memo
  15.  
  16.    This document is an Internet Draft.  Internet Drafts are working
  17.    documents of the Internet Engineering Task Force (IETF), its Areas,
  18.    and its Working Groups. Note that other groups may also distribute
  19.    working documents as Internet Drafts.
  20.  
  21.    Internet Drafts are draft documents valid for a maximum of six
  22.    months. Internet Drafts may be updated, replaced, or obsoleted by
  23.    other documents at any time.  It is not appropriate to use Internet
  24.    Drafts as reference material or to cite them other than as a "working
  25.    draft" or "work in progress." 
  26.  
  27.    Please check the 1id-abstracts.txt listing contained in the
  28.    internet-drafts Shadow Directories on nic.ddn.mil, nnsc.nsf.net, 
  29.    nic.nordu.net, ftp.nisc.sri.com, or munnari.oz.au to learn the
  30.    current status of any Internet Draft.
  31.  
  32.    This draft document will be submitted to the RFC editor as an
  33.    informational document.  This document will expire before 2nd March
  34.    1993.  Distribution of this memo is unlimited. Comments are
  35.    solicited and should be sent to ietf-822@dimacs.rutgers.edu.
  36.  
  37.  
  38. Introduction
  39.  
  40.    This document describes the encoding method being used to represent
  41.    the Hangul, Korean character, in both header and body part of the
  42.    internet electronic mail system. This encoding method was specified
  43.    in System Development Network (SDN) in 1991, and has since then been
  44.    used, it has widely spread from SDN to other Korean IP networks.
  45.  
  46.    This document describes the name and encoding method of Hangul that
  47.    are to be used in order to match the message body format of MIME
  48.    [MIME] and the RFC1342 [RFC1342] header format.
  49.  
  50.    This document describes only the encoding method for plain text. 
  51.    Other text subtypes, rich text and similar forms of text, are beyond 
  52.    the scope of this document.
  53.  
  54.  
  55.  
  56. Chon et al              Expires December 10, 1993               [Page 1]
  57.  
  58. Internet Draft                                              May 11, 1993
  59.  
  60.  
  61. Description
  62.  
  63.    It is assumed that the starting code of the message is ASCII. ASCII
  64.    and Hangul can be distinguished by use of the shift function. For
  65.    example, the code SO will alert us that the up coming bytes will be 
  66.    either a Hangul character in 2 bytes or an ASCII space character in 
  67.    a single byte. To return to ASCII the SI code is used.
  68.  
  69.    Therefore, the escape sequence, shift function and character set used
  70.    in a Hangul message are as follows:
  71.  
  72.            SO           KSC 5601
  73.            SI           ASCII
  74.            ESC $ ) C    Appears in the first line of the message
  75.  
  76.    The KSC 5601 [KSC5601] character set that includes Hangul, Chinese
  77.    ideographic characters, graphic and foreign characters, etc. is two
  78.    bytes long for each character.
  79.  
  80.    For more information about Korean character codes please refer to the
  81.    KSC 5601-1989 document. Also, for more detailed information about the
  82.    escape sequence and the shift function you can look for the ISO 2022
  83.    [ISO2022] document.
  84.  
  85.  
  86. Formal Syntax
  87.  
  88.    Where this document in its formal syntax does not agree with the
  89.    description part, priority should be given to the formal syntax of
  90.    the document.
  91.  
  92.    The notations used in this section of the document are according to
  93.    those used in RFC822 [RFC822] with the same meaning.
  94.  
  95.         * (asterisk) has the following meaning :
  96.              l*m "anything"
  97.  
  98.    The above means that "anything" has to be used at least l times and
  99.    at most m times. Default values for l and m are 0 and infinitive,
  100.    respectively.
  101.  
  102.    body            = *e-line *1( designator *( e-line / h-line ))
  103.  
  104.    designator      = ESC "$" ")" "C"
  105.  
  106.    e-line          = *text CRLF
  107.  
  108.    h-line          = *text 1*( segment *text ) CRLF
  109.  
  110.  
  111.  
  112. Chon et al              Expires December 10, 1993               [Page 2]
  113.  
  114. Internet Draft                                              May 11, 1993
  115.  
  116.  
  117.    segment         = SO one-of-94 one-of-94
  118.                          *( *SP 1*(one-of-94 one-of-94)) SI
  119.  
  120.                                                ; ( Octal, Decimal.)
  121.  
  122.    ESC             = <ISO 2022 ESC, escape>    ; ( 33, 27.)
  123.  
  124.    SO              = <ASCII SO, shift out>     ; ( 16, 14.)
  125.  
  126.    SI              = <ASCII SI, shift in>      ; ( 17, 15.)
  127.  
  128.    SP              = <ASCII SP, space>         ; ( 40, 32.)
  129.  
  130.    one-of-94       = <any char in 94-char set> ; (41-176, 33.-126.)
  131.  
  132.    CHAR            = <any ASCII character>     ; ( 0-177, 0.-127.)
  133.  
  134.    text            = <any CHAR, including bare CR & bare LF, but NOT
  135.                       including CRLF, and not including ESC, SI, SO>
  136.  
  137.  
  138. MIME and RFC1342 Considerations
  139.  
  140.    The name to be used for the Hangul encoding scheme in the contents is
  141.    "ISO-2022-KR". This name when used in MIME message form would be:
  142.  
  143.         Content-Type: text/plain; charset=iso-2022-kr
  144.  
  145.    Since the Hangul encoding is done with 7 bit format in nature, the
  146.    Content-Transfer-Encoding-header does not need to be used. However,
  147.    while using the Hangul encoding, current Hangul message softwares
  148.    does not support Base64 or Quoted-Printable encoding applied on 
  149.    already encoded Hangul messages.
  150.  
  151.    The Hangul encoded in the header part of the message is Korean EUC
  152.    [EUC-KR].  In the EUC-KR encoding, the bytes with 8th bit set will
  153.    be recognized as KSC-5601 charecters.  To use Hangul in the header
  154.    part, according to the method proposed in RFC1342, the encoded
  155.    Hangul are "B" or "Q" encoded. When doing so, the name to be used
  156.    will be EUC-KR.
  157.  
  158.  
  159. Background Information
  160.  
  161.    The Hangul encoding system is based on the ISO 2022 [ISO2022]
  162.    environment according to its 4/4 announcement. However, the Hangul
  163.    encoding does not include the announcement's escape sequence.
  164.  
  165.  
  166.  
  167.  
  168. Chon et al              Expires December 10, 1993               [Page 3]
  169.  
  170. Internet Draft                                              May 11, 1993
  171.  
  172.  
  173.    The KSC 5601 used in this document is, in definition, identical to
  174.    the KSC 5601-1987, KSC 5601-1989 and KSC 5601-1992's 94x94 octet
  175.    definition.  Therefore, any revision that refers to KSC-5601 after
  176.    1992 is to be considered as having the same meaning.
  177.  
  178.    At present, the Hangul encoding system is based on the experience
  179.    acquired from the former widely used "N-Byte Hangul" among UNIX
  180.    users. Actually, the encoding method, "N-Byte Hangul", using SO and
  181.    SI was the encoding method used in SDN before KSC 5601 was made a
  182.    national standard.
  183.  
  184.    This code is intended to be used for the information interchange of
  185.    Hangul messages; any other use of the code is not considered apt.
  186.  
  187.  
  188. References
  189.  
  190.    [ASCII] American National Standards Institute, "Coded character set
  191.    -- 7-bit American national standard code for information
  192.    interchange", ANSI X3.4-1968
  193.  
  194.    [ISO2022] International Organization for Standardization (ISO),
  195.    "Information processing -- ISO 7-bit and 8-bit coded character sets
  196.    -- Code extension techniques", International Standard, 1986,
  197.    Ref. No. ISO 2022-1986 (E).
  198.  
  199.    [KSC5601] Korea Industrial Standards Association, "Code for
  200.    Information Interchange (Hangul and Hanja)," Korean Industrial
  201.    Standard, 1987, Ref. No. KS C 5601-1989.
  202.  
  203.    [EUC-KR] Korea Industrial Standards Association, "Hangul Unix
  204.    Environment," Korean Industrial Standard, 1992, Ref. No.
  205.    KS C 5861-1992.
  206.  
  207.    [RFC822] David H. Crocker, "Standard for the Format of ARPA Internet
  208.    Text Messages", Internet standard, August 1982, RFC822.
  209.  
  210.    [MIME] Nathaniel Borenstein and Ned Freed, "MIME (Multipurpose
  211.    Internet Mail Extensions): Mechanisms for Specifying and Describing
  212.    the Format of Internet Message Bodies", Proposed Internet standard,
  213.    June 1992, RFC1341.
  214.  
  215.    [RFC1342] K. Moore, "Representation of Non-ASCII Text in Internet
  216.    Message Headers", Proposed Internet standard, June 1992, RFC1342.
  217.  
  218.  
  219. Security Considerations
  220.  
  221.    This document does not include security considerations.
  222.  
  223.  
  224. Chon et al              Expires December 10, 1993               [Page 4]
  225.  
  226. Internet Draft                                              May 11, 1993
  227.  
  228.  
  229. Acknowledgments
  230.  
  231.    The authors wants to thank all the people who assisted in drafting
  232.    this document. In particular, we thank Erik von der Poel, Felix M. 
  233.    Villarreal, Ienup Sung, Kyoung Namgoong, and Kyuho Kim.
  234.  
  235.  
  236. Authors' Addresses
  237.  
  238.    Kilnam Chon
  239.    Korea Advanced Institute of Science and Technology
  240.    Department of Computer Science
  241.    Taejon, 305-701, Republic of Korea
  242.    
  243.    Tel: +82-42-869-3514
  244.    Fax: +82-42-869-3510
  245.  
  246.    Email: chon@cosmos.kaist.ac.kr
  247.  
  248.  
  249.    Hyun Je Park
  250.    Solvit Chosun Media, Inc.
  251.    748-16 Yeoksam-Dong, Kangnam-Gu
  252.    Seoul, 135-080, Republic of Korea
  253.  
  254.    Tel: +82-2-561-0361
  255.    Fax: +82-2-569-4847
  256.  
  257.    Email: hjpark@dino.media.co.kr
  258.  
  259.  
  260.    Uhhyung Choi
  261.    Korea Advanced Institute of Science and Technology
  262.    Department of Computer Science
  263.    Taejon, 305-701, Republic of Korea
  264.  
  265.    Tel: +82-42-869-3554
  266.    Fax: +82-42-869-3510
  267.  
  268.    Email: uhhyung@kaist.ac.kr
  269.  
  270.  
  271.  
  272.  
  273.  
  274.  
  275.  
  276.  
  277.  
  278.  
  279.  
  280. Chon et al              Expires December 10, 1993               [Page 5]
  281.  
  282.  
  283. -- 
  284. Uhhyung Choi
  285. Korea Network Information Center
  286.